Perturbative Contrastive Physical Learning
Responses to perturbations are key to understanding physical systems. The ability to contrast such responses b
- 用途
- 分類
- 難易度
- Hard
- コスト
- Low
「classification」の検索結果
123 件Responses to perturbations are key to understanding physical systems. The ability to contrast such responses b
With AI increasingly deployed in safety-critical systems, providing formal robustness guarantees for the under
生成モデルDiffusionモデルの強度推論を評価するフレームワークを提案します。Diffusionモデルの表現能力と生成能力を評価するために、特徴量を不変成分と余分な成分に分割し、不変性汚染という概念を導入します。
大規模言語モデル(LLM)を運用するコンテンツモデレーションシステムは、有害なオンラインコンテンツを防止するために重要な役割を果たします。しかし、これらのシステムの主な目標は単にトークナイズされたテキストを操作することに
Alzheimer's disease (AD) progression is highly heterogeneous and is typically observed through sparse and irre
Muon has recently emerged as a state-of-the-art optimizer for pretraining Large Language Models (LLMs) and vis
scRNA-seq データの解釈を向上させる Transformer を提案。モデルにゲノム規制的情報を組み込むことで、遺伝子発現の解釈と予測の精度が向上することを示した。
この研究では、Surrogate-based Analysis of Interactions via Local Effect Smooths (SAILS) と呼ばれる構造間の相互作用を検測し、機能的な相互作用を推定
Football event data constitute a rich spatiotemporal source for quantitative analysis of player actions in tea
Understanding tactical organisation of association football, hereafter referred to as football, requires ident
Convolutions have successfully transitioned from image processing to the complex realm of non-Euclidean higher
モジュラー演算を使用することで、メモリを最適に利用することができるようになり、パフォーマンスの向上につながります。
分子設計のための機械学習モデルを作成することで、効率的な合成が可能になり、薬剤開発などの分野で大きく貢献することが可能です。
リカURRENTニューラルネットワークの隠れ状態の安定性を推定することで、ネットワークの推論を進めることができるようになります。
As LLM agents begin to take real, irreversible actions (shell commands, file edits, deploys), the standard saf
In the task of few-shot class-incremental audio classification, the number of classes is assumed to always inc
自動運転車やインテリジェント輸送システムなどの自動化された車両の感知には3次元オブジェクト検出が必要です。道路での長距離検出は困難ですが、道路ではこの「長距離」に対する感知と決定の時間は約1-2秒です。2つの主な課題が現
基礎モデルは、多モーダル生理信号を人間の健康に縮小された表現に圧縮することで、睡眠医学、心臓学、神経学など、広い応用域への道を開いています。既存のモデルは、一般的にはマスクした再構築または対比的目的で訓練されています。
Tool-using large language model (LLM) agents face two distinct security failures: unauthorized external action
マテリアルの非破壊検査を目的としたContext-Aware Deep Learningが提案され、エアロックの欠陥を検出する。
Body movement communicates intent at distances and in conditions where neither the face, nor speech can be cap
異なる種類の動物を取り巻く面からの画像を使用して、動物の特定を行う方法を提案している。
少ない例の問題のオブジェクト認識においては、オブジェクト認識の提案の精度を向上させることができる。
エンドツーエンドトレーニングによるTTSシステムを提案し、エンドツーエンドトレーニングの利点を確認している。
Safety judges are increasingly deployed to evaluate model outputs against evolving criteria, yet recent meta-e
ビジュアル言語モデル(VLM)は、プライバシー保護において有効性の高い能力をもつ。しかし、視覚データを扱う際のプライバシーリスクについては、それまでほとんど注目されていなかった。VLMを使用して、プライバシー保護を確保す
空中マルチスペクトル点群(MPC)では、三次元空間とスペクトルの情報を組み合わせたデータが取得できるが、点群データの分類は難しい課題であったため、新しい学習フレームワークを 提案。
Large language model (LLM) agents now solve complex tasks through long plan-and-execution traces, yet the abil
LLMがTABULARデータ分析で機能を自動化できるようにした。しかし、標準化されたプラットフォームの欠如は、比較やコスト的評価を行うのを難しくしている。複雑なメソッドの設計により、各コンポーネントの具体的な貢献をはっき
Spinal pathology is a leading cause of pain and disability worldwide. Spine MRI is central to clinical evaluat
この研究では、音楽生成における多様性を促進するためのオープンソース・フレームワークを開発します。このフレームワークは、音楽生成における多様性の促進を支援するために、進化的プロセスと多様性促進アルゴリズムを組み合わせたもの
予備情報が少ない場合や医療分野などの特定の分野の場合、分類タスクは難しいようになるが、この研究では、モデルが未分類データを操作して、分類モデルの性能を向上させる方法である、DecSelfMaskを提案した。
この研究では、低リソース言語や絶滅言語の辞書のデジタル化が重要であるが、マルチモーダル辞書をデジタル化する方法は今まで難しかったが、この研究では、最近のビジョン言語モデルを用いて辞書のデジタル化が容易になり、辞書内の文字
危機管理では、コミュニケーションと地理
Large language models (LLMs) provide a powerful reasoning backbone for speech understanding, but integrating c
Nüshu is an endangered phonetic script historically used by women in Jiangyong County, southern Hunan, China.
We introduce ChinaHeritaQA, a multimodal benchmark dataset for evaluating the cultural reasoning abilities of
End-to-end co-optimization of optical front-ends (e.g. metasurfaces) and neural network back-ends has been wid
Eye movements, including saccades, are widely regarded as highly sensitive and objective biomarkers of neuroph
Conventional one-hot encodings often yield poorly calibrated models, being overconfident under attack, and let
Self-supervised data curation provides a pathway to scaling and improving the generalization capabilities of m
Optical Music Recognition (OMR) has seen major progress in model design, with end-to-end methods now capable o
Generalized Few-Shot Semantic Segmentation (GFSS) has traditionally been approached as a representation-learni
Advances in handwritten text recognition have enabled large-scale transcription of historical documents, but s
The vascular network in the human body is characterized by blood vessels exhibiting drastic structural variati
Open-domain open-vocabulary detection (ODOVD) requires detectors to generalize to both novel categories and un
Reliable motion classification is critical for autonomous driving, as false dynamic predictions of static obje
The rapid development of pretrained foundation models has enabled more general image segmentation. Multimodal
In this paper, we present XInsight Lab's solution to the micro-gesture classification track of the 4th MiGA Ch
The analysis of internet memes in the Nepali language is complicated by frequent code-mixing and a lack of est
Modern neural classifiers commonly rely on linear readouts, yet predictive metrics alone do not characterize t
Purpose: Spatial transcriptomics (ST) enables gene expression measurements within the tissue context. However,
Sophisticated generative speech technology can undermined the reliability of voice biometrics. While spoofing
Voice biometric systems face growing threats from spoofing attacks, yet the evaluation of detection models rem
Deep learning EEG denoising architectures have scaled from tens of thousands to tens of millions of parameters
Deep learning on physiological time series is interpreted through domain-specific features -- oscillatory rhyt
Speech emotion recognition (SER) is commonly formulated as utterance-level classification, although conversati
The automatic processing of handwritten forms remains a challenging task, wherein detection and subsequent cla
This paper examines the limitations of fully digital and partially digital e-assessment approaches in summativ
In high-stakes settings such as brand compliance, clinical care, and content moderation, machine learning cann
Symbolic music evaluation for large language models remains fragmented across representations, datasets, and m
We present a method for automatic Chinese web neologism detection that operationalizes traditional linguistic
AI coding assistants have significantly improved developer productivity by automatically suggesting code that
We present a multilingual fact-checking system deployed at Factiverse, designed for high-throughput and low-la
Speech Large Language Models (Speech LLMs) lack a principled mechanism for streaming inference: their label-sy
Temporary work-zone speed limits are communicated through visually inconsistent signage and are often missing
Image data regarding galactic morphology is expected to increase both in quantity and quality for the next for
Change detection and scene recognition techniques have been widely applied to Street View Imagery (SVI) to und
The rapid advancement of generative models has blurred the boundary between synthetic and real imagery, creati
Facial Expression Recognition (FER) has advanced rapidly over the last decade, driven by the shift from handcr
Exploratory manipulation often turns an apparent failed attempt into the key evidence for what to do next. For
Standard transformers apply self-attention uniformly at every layer and token, regardless of whether the input
Large language models (LLMs) frequently generate hallucinations, which are unsupported by a source document. T
Sign language models are predominantly trained with gloss-sequence or text supervision, thereby under-modeling
Understanding where LLMs store factual knowledge is critical for hallucination mitigation. We systematically q
Backdoor attacks in large language models (LLMs) are often treated as isolated trigger-response failures, moti
Temporomandibular joint osteoarthritis (TMJ OA) is a prevalent degenerative condition whose osseous changes ar
While multimodal integration significantly improves computer vision models, deploying them incurs prohibitive
Understanding and comparing structures in scalar fields is a central challenge in scientific visualization, wi
MRI preprocessing defines the input distribution seen by brain MRI foundation models, yet it is usually treate
Vision Transformers (ViTs) achieve strong performance but suffer from high computational costs due to quadrati
Vision-language models (VLMs) enable visual recognition from semantic class descriptions, which makes them att
Vision-based driver monitoring systems are increasingly deployed in safety-critical intelligent transportation
We present OSMGraphCLIP, a CLIP-style geospatial representation model that learns global location embeddings f
In assisted teleoperation for human-robot collaboration, accurate intention prediction is critical for enablin
Adapting large language models (LLMs) to clinical workflows often requires costly fine-tuning or manual prompt
Powered prostheses conventionally rely on impedance controllers that require extensive manual tuning and expli
This paper presents ERNEST, a four-wheeled planetary rover concept equipped with a two-degree-of-freedom Activ
この研究では、強い攻撃に対してグラフニューラルネットワーク (GNN) の安定した推論を保つために、PAC-ベイズ分析を使用して GNN の一般性を分析します。新しい分析方法を提案することで、GNN の弱信頼性の推論結果
Open-vocabulary 3D functionality segmentation enables robots to localize functional object components in 3D sc
この研究では、将来の天文台 Roman が取得するデータに対して、変換検出と変換エラー検出の自動パイプラインを提案している。変換検出は、特に天文台 Roman のデータでは重要な機能であり、天文現象を検出するために迅速な
この研究では、グラフ構造を考慮したグラフ機械学習アルゴリズムを提案しており、特にグラフ構造と多ホップ支援を考慮したリワイアリング技術を提案している。
この研究では、個人の意思決定に対する効率的な解析 (Worker Utility) を提案しており、個人の意思決定を効率的に解析し、それを活用する。
Neuroevolution is a representative neural architecture search paradigm that evolves both network topology and
Traffic sign recognition is crucial for intelligent transportation and autonomous driving, as it can improve d
パラメータの最適化を目的としたオフライン-MOOアルゴリズムを提案する。
時系列データの分類と新しいクラスを追加しやすいクラス増加モデルの開発と、それを用いた実験結果について論じます。
Concepts of calibration formalize the compatibility between probabilistic predictions and the respective outco
Equilibrium Propagation (EP)は、エネルギーベースのモデル、特にPredcitveCodingNetwork (PCN)のトレーニングに利用できるフレームワークです。EPは、トレーニングの過程に
We present a single classification pipeline that combines an Equiangular Tight Frame (ETF) preprocessing stage
We introduce Convex Distance Operator Transport (CDOT), the first convex optimal transport framework that alig
Prediction algorithms are increasingly used to inform decisions about humans, but maximizing accuracy$\rule[0.
Deep learning has greatly advanced automatic speech recognition (ASR), enabling widespread deployment on edge
Recent publications have suggested using the Shap- ley value for sensor anomaly/attack localization. We study
We present a deep photonic neural network architecture based on ultrafast binary optical modulation from a dig
Small and medium-sized enterprises (SMEs) represent the majority of firms in most economies and often face fin
Recognizing and continuously learning novel human actions without forgetting prior classes is a requirement fo
In large-scale benchmarking of stochastic optimization algorithms, the key challenge is no longer whether repe
Neural networks are known to develop latent representations that are $aligned$, namely structurally similar ac
Spatial and temporal resource constraints are critical for both biological and artificial intelligent systems.
Marine plankton underpin aquatic food webs and play a key role in global CO2 sequestration, making reliable sp
スパイキングニューラルネットワークを高速化するためのSpikingMoEを提案しています。このフレームワークは、スパイク通信を削減するためのSDPrompt-Guided Dynamics Expert Fusionを提
この研究では、時間空間オブジェクト認識のためのお気に入りのサブストラットを開発するため、Spiking Reinterpretation of Thousand Brains Theoryという方法を提案しました。これは
One prominent method of evaluating machine learning model trustworthiness is the notion of calibration. In the
Backpropagation with gradient descent is a common optimization strategy employed by most neural network archit
Von Economo neurons (VENs) are selectively lost in behavioural-variant frontotemporal dementia (bvFTD) and red
A group of individuals wishes to classify $m$ objects into $n$ categories in such a way that no class is left
We propose a scalable neuromorphic architecture based on spiking dynamics emerging from the autonomous time-co
この研究では、物理的システムを計算に利用する方法を提案した。研究によると、この方法により計算が高速化された。
The space L of linear value maps on a finite-player cooperative game G^N is finite-dimensional, and admits a c
Standard deep-learning pipelines usually choose the network architecture before training and keep it fixed thr
Aim/Introduction: Distance-encoding biomorphic-informational neural network (DEBI-NN) is a recently proposed a
Transformer-based Spiking Neural Networks (SNNs) integrate SNNs with global self-attention and have demonstrat